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摘 要 : [目的 /意义 ] 对 阿尔 英 海 默 病 (AD ) 进 行 基因 - 疾病 关联 挖掘, 以 捕 提 潜 力 研 究 方向 。[ 方法 “过程 ] 基 于 LBD 理 
论 构 建 开 放 式 知识 发 现 架构 ,结合 MeSH 词 表 、DisGeNET 等 医学 术语 、 组 学 数据 对 PubMed 中 AD 文献 进行 知识 挖 
气 , 采 用 关联 规则 与 算法 排序 等 方法 对 部 分 基因 重合 的 强 关联 主题 共 现 疾病 和 优先 候选 基因 进行 第 选 ,结合 时 间 
切片 和 其 他 LBD 工具 对 比 加 以 验证 。[ 结果 /结论 ] 对 88 334 篇 AD 文献 进行 基因 -疾病 识别 ,并 与 2 120 种 AD 
基因 进行 匹配 ;以 XYZ 分 析 视 角 对 识别 出 的 992 种 主题 共 现 疾病 及 11 899 种 候选 基因 进行 关联 排序 ;精炼 10 种 

z= 强 关联 疾病 与 25 种 优选 候选 基因 ,结合 文献 报道 加 以 论述 。 通 过 LBD 挖掘 目标 疾病 - 共 现 疾 病 - 基 因 之 间 潜 在 
关联 ,可 快速 捕捉 潜力 研究 方向 ,缩小 基因 测序 范围 ,为 新 研究 假设 的 生成 提供 重要 指导 依据 。 
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阿尔 茨 海 默 病 实体 识别 


数据 挖 气 ”排序 算法 


时 间 分 析 


思 目 前 , 阁 呆 已 成 为 老年 人 群 致死 和 致 残 的 主要 疾 
Vic L— UV 阿尔 芯 海 默 病 ( Alzheimer disease, AD) 作为 
闯 里 的 首要 病因 ,更 是 21 世纪 全 球 医疗 卫生 所 面临 的 
Eikite, 2015 年 ,全 球 60 岁 及 以 上 人 和 群 的 AD 
等 病 呆 患 病 率 高 达 5. 206 , 患 病人 数 预计 将 在 35 年 内 翻 
DÉN, AD 致 残 率 高 ,患者 晚期 丧失 独立 生活 能 
且 守 全 依赖 于 他 人 的 持续 性 照护 ,经 估算 ,其 费用 成 
本 死 乎 占据 全 球 GDP 的 1.09% “ ,给 家 庭 与 社会 都 带 
来 加 沉重 负担 。 复 杂 的 发 病 机 制 使 得 40 年 来 该 领域 难 
以 有 所 突破 ,治疗 药物 仍 以 对 症 为 主 而 未 能 改变 疾病 进 
BUS. ple, HU AD 发 病 的 危险 因素 并 开展 早期 干预 
或 预防 ,是 延缓 AD 发 病 的 有 效 途径 之 一 。 

遗传 因素 作为 除 年 龄 外 最 明确 的 AD 危险 因素 ， 
近年 来 相关 研究 取得 了 一 系列 进展 。 尽 管 淀粉 样 蛋 
白 假说 长 期 主导 着 诊疗 方向 的 发 展 ,但 基于 连锁 分 析 、 
全 基因 组 关联 研究 ( Genome-wide association study, 
GWAS) .大 规模 并 行 重 测序 ( Massively parallel sequen- 
cing, MPS) 等 技术 展开 的 基因 组 学 研究 结果 揭示 了 一 系 


列 促成 AD 的 生物 学 过 程 ,并 提出 新 的 治疗 靶 点 ” ,为 探 
讨 AD 风险 的 遗传 学 成 因 、 解 释 多 因素 复杂 性 奠定 了 基 
础 。 虽然 这 些 结果 在 发 病 机 制 与 治疗 方案 设计 等 方面 
的 作用 有 限 , 人 们 仍 需 对 AD 新 基因 阐明 .基因 分 析 对 疾 
病 预 防 的 潜在 影响 等 遗传 学 研究 保持 乐观 ”。 

已 发 表 的 科研 论文 中 蕴含 着 大 量 生 物 医学 知识 ， 
包括 经 试验 (或 实验 ) 验证 且 被 广泛 接纳 的 “ 既 有 知 
识 ” ,以 及 尚未 被 普遍 关注 且 研 究 基础 薄弱 的 “新 兴 知 
识 ” 。 虽 然 研 究 者 倾向 于 使 用 既 有 知识 体系 来 解释 疑 
问 , 但 对 新 兴 知 识 的 系统 分 析 与 实践 验证 更 有 利于 将 
思维 转化 为 可 检验 假设 ,从 而 激发 学 科 内 的 深度 挖掘 
与 学 科 间 的 协同 合作 ” o 1986 4E, D. Swanson 提出 
基于 文献 的 知识 发 现 模式 (literature-based discovery , 
LBD) ,尝试 以 自动 化 或 半自动 化 方式 从 现 有 文献 
中 发 现 新 的 有 意义 的 知识 关联 " ,可 用 于 药物 副 
作用 监测 ,疾病 新 疗法 研究 以 及 候选 疾病 基因 识别 等 
RIE, LBD 理论 应 用 于 AD 知识 发 现 展现 出 丰 
富 层次 ,包括 从 基因 ”蛋白 分 子 ” "代谢 产 
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物 ”“” 及 疾病 药物 ”” ”等 角度 人 手 分 析 , 以 探测 
AD 在 遗传 变异 .基因 表 型 .蛋白 细胞 生理 病 生 等 方面 
的 潜力 研究 方向 。 虽 产生 一 定 成 果 , 但 仍 存在 诸如 缺 
乏 外 部 验证 、 数 据 适用 范围 小 ,结果 解释 困难 等 问 
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3 数据 来 源 
COPubMed 作为 当今 国际 上 生物 医学 领域 最 权威 的 
数据 库 ”' ,至 今 收 录 文 献 超过 3 027 万 篇 ,其 海量 文献 
所 狂 含 的 生物 医学 知识 但 然 构成 一 座 浩 瀚 的 知识 宝 
库 。 医 学 主题 词 表 ( Medical Subject Headings , MeSH ) 
是 由 美国 国立 医学 图 书馆 (National Library of Medi- 
cine, NLM) 编制 的 分 层 制 受 控 词 表 ,可 精准 ,快速 地 揭 
示 文献 中 生物 医学 概念 ,从 而 保证 PubMed 中 海量 文 
献 的 有 效 检索 。 词 共 现 (term co-occurrence) 指 表征 
文献 主题 的 词 ,如 关键 词 .标题 词 或 主题 词 等 共同 出 现 
在 一 篇 文章 中 ”。 词 共 现 关系 是 分 析 文 献 知识 内 容 
关联 , 挖 气 知识 价值 的 重要 手段 , 常 被 用 于 预测 疾 
病 与 基因 之 间 的 关联 ”。 既 往 研 究 表明 ,对 PubMed 
文献 中 MeSH 进行 共 现 分 析 可 成 功 复 制 D. Swanson 发 
现 ””。 本 研究 基于 MeSH 的 主题 词 共 现 (以 下 简称 
“主题 共 现 ”) 方 式 ,对 PubMed 中 AD 文献 的 疾病 主题 
词 进行 识别 ,为 挖掘 知识 关联 奠定 基础 。 

AD 研究 的 最 大 挑战 之 一 是 破译 其 发 病 的 潜在 机 
制 。 分 子 医 学 的 不 断 发 展 使 生物 医学 研究 能 够 有 效 回 


提取 主题 共 现 疾病 的 基因 集 


本 研究 基于 LBD 理论 的 开放 式 知识 发 现 架 构 ( 见 
1) ,通过 AD 文献 挖掘 关联 疾病 ,结合 组 学 数据 库 中 
基因 疾病 信息 推测 AD 潜在 候选 基因 ,并 采用 时 间 切 
片 和 其 他 LBD 工具 对 比 加 以 验证 ,以 期 为 后 续 明 晰 
AD 发 病 机 制 .扩展 诊治 思路 提供 一 定 参考 。 


目标 术语 
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目标 术语 
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根据 疾病 -基因 关联 信息 目标 术语 
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关联 挖 所 目标 术语 
根据 疾病 - 基因 关联 信息 目标 分 组 & 排序 
提取 主题 共 现 疾病 的 基因 集合 ii 主题 具 现 疾病 与 AD MIETE 
部 分 重 本 主题 夫 现 疾病 的 非 AD 基因 - 
ERE 疾病 关联 排序 
根据 疾病 - 基因 关联 信息 
提取 主题 共 现 疾病 的 基因 集合 目标 术语 
现 疾 病 的 基因 5 
Xd 
根据 疾病 -基因 关联 信息 plus m 


图 1 开放 式 LBD 体系 架构 


答 有 关 基 因 - 疾病 关联 的 问题 ” ,使 用 文本 挖掘 、 多 
数据 源 集 成 等 方式 自动 抓 取 科研 文献 中 疾病 候选 基因 
并 对 其 进行 优先 排序 是 获取 疾病 分 子 机 制 信息 的 策略 
之 一 ” 。 当 下 ,大量 组 学 信息 被 整合 在 公共 网 络 平台 
上 ,如 GeneCards , UniProtKB , PharmGKB 等 根据 基因 组 
学 、 和 蛋白 组 学 或 药物 基因 组 学 对 疾病 遗传 学 进行 注释 
的 集成 数据 库 ; 对 基因 组 表 型 和 环境 信息 资源 的 综合 
利用 ,能 够 加 深 研 究 者 对 疾病 机 制 的 理解 ”。 因 此 ， 
应 巧妙 地 整合 此 类 基因 疾病 数据 集 ,通过 基于 查询 项 、 
关联 词 与 数据 库 术 语 的 三 者 共 现 关系 ,结合 基于 规则 
的 模式 识别 算法 来 实现 基因 优先 排序 ” ,从 而 为 二 
代 测 序 方向 提供 思路 。 笔 者 在 对 20 种 常见 生物 信息 
学 数据 库 进行 调查 后 ,根据 疾病 范围 数据 可 获取 性 等 
指标 筛选 其 中 6 种 平台 ( 见 表 1) ,汇总 AD 基因 -疾病 
关联 (gene-disease associations, GDAs) 数据 。 其 中 ,Dis- 
GeNET 在 识别 基因 和 疾病 词汇 表 方 面 展 现 出 更 优 的 全 
面 性 与 灵活 性 , 且 能 友好 支持 MeSH、UMLS、ICD9-CM 
等 术语 标识 符 下 疾病 的 注释 分 类 。 基 于 此 ,本 研究 
选择 从 DisGeNET 导出 全 部 GDAs, 作为 识别 上 述 
MeSH 主题 共 现 疾 病 的 基因 注释 表 ,为 挖掘 潜在 知识 关 
联 提供 线索 。 
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序号 AN 类 别 
1 Clin Var 人 类 基因 
组 变异 数 
据 库 


r 


2 DisGeNET; AXK) 
Database of 相关 的 


> 


gu 


Gene-Disease 共 可 用 3 
Associations 因 和 变 f 
发 现 平台 


3 HPA: Human 人 类 和 蛋 
Protein Atlas Ji [5] i£ 


表 1 部 分 生物 信息 学 数据 库 /平台 简介 
序号 ”名称 M ”所 属 机 构 。 ”数据 库 简介 ”部 分 特征 或 应 用 范围 。 相关 出 版 物 相关 链接 


所 属 机 构 数据 库 简 介 

NCBI ClinVar 是 NCBI 主办 的 与 疾病 相关 的 人 类 ”自主 分 类 方式 M. Landrum 等 . Clin- https://www. 
基因 组 变异 数据 库 。 它 整合 了 dbSNP db- Var at five years; De- ncbi. nlm. nih. 
Var „Pubmed ,OMIM 等 多 个 数据 库 在 遗传 变 livering on the prom- — gov/clinvar/ 
异 和 临床 表 型 方面 的 数据 信息 ,形成 一 个 标 ise. 
准 的 ,可 信 的 遗传 变异 -临床 相关 的 数据 库 

GRIB DisGeNET 是 一 个 发 现 平台 ,包含 与 人 类 疾 ”基因 疾病 关联 强大 J. Piñero 等 . The Dis- http://www. 
病 相关 的 最 大 公共 可 用 基因 和 变 体 之 一 。 GeNET knowledge ^ disgenet. org/ 
DisGeNET 集成 了 家 策划 的 存储 库 、 platform for disease 
GWAS 目录 .动物 模型 和 科学 文献 中 的 数 genomics; 2019 up- 
据 。DisGeNET 数据 通过 受 控 词 表 和 社区 驱 date. 
动 的 本 体 进 行 统 一 注释 。 另 外 ,提供 了 几 个 
原始 指标 以 帮助 确定 基因 型 - 表 型 关系 
的 优先 次 序 

KAW Human Protein Atlas 数据 库 提供 全 部 24 000 ”由 3 个 部 分 组 成 :组 织 。 M. Uhlén 等 Pro- http://www. 
种 人 类 和 蛋白 质 的 组 织 和 细胞 分 布 信息 ,并 免 Altas 显示 在 人 体内 的 ” teomics. Tissue-based proteinatlas. 
费 提 供给 公众 查询 。 用 免疫 组 化 的 技术 , 检 蛋白质 在 所 有 主要 的 ”map of the human org/ 


p 


T4 


00181v1 


PO: Human 人 类 表 型 
henotype 本 体 数 据 
tology 库 


J 


02304 


CNMalacard 人 类 疾病 
mu 注释 综合 
> 库 


naXi 


MIM: On- 人 类 基因 
遗传 数据 


ine Mende- 遗 
lian Inherit- JÆ 


ance in Man 


查 每 一 种 蛋白 质 在 48 种 人 类 正常 组 织 .20 


种 肿瘤 组 织 47 个 细胞 系 和 12 种 


内 的 分 布 和 表达 ,其 结果 用 至 少 576 张 免疫 ” 单 细胞 中 的 亚 细 胞 定 


组 化 染色 图 表示 ,并 经 专业 人 员 阅 


NS 


晶 织 和 器 官 的 分 布 ; 细 proteome. 
液 细胞 HE Altas 显示 和 蛋白质 在 


读 和 标 引 ”位 ;病理 学 图 谱 显示 蛋 
白质 水 平 对 癌症 趾 


存活 的 影响 
Monarch HPO 提供 了 人 类 疾病 中 遇 到 的 表 型 异常 的 ” 可 提供 基因 本 体 的 信  S. Köhler 等 . Expan- https :⁄//hpo. 
Initiative 标准 化 词汇 ,每 个 术语 描述 了 表 型 异常 , 例 息 下 载 sion of the Human  jax.org/app/ 
如 房间 隔 缺 损 等 。HPO 目前 包含 超过 Phenotype Ontology 
13 000 个 术语 和 超过 156 000 个 遗传 性 疾病 ( HPO ) knowledge 
注释 ,与 其 他 项 目 开 发 了 用 于 表 型 驱动 的 base and resources. 
异 诊断 基因 组 诊断 和 转化 研究 的 软件 
WIS MalaCards 从 68 个 数据 源 中 提取 的 带 注释 ”整合 了 疾病 的 别名 、 基 。， N. Rappaport 等 . Ma- — https:;//www. 
疾病 的 综合 纲要 , 它 在 15 个 部 分 中 描绘 了 ” 因 本 体 等 信息 ;整合 了 laCards: an amalga- malacards. 
各 种 各 样 的 注释 主题 ,包括 摘要 .症状 .解剖 GeneCards 资源 mated human disease — org/ 
背景 .药物 .基因 检测 ,变异 和 出 版 物 。 别 名 compendium with di- 
和 分 类 部 分 反映 了 一 种 用 于 在 经 常 发 生 冲 verse clinical and ge- 
突 的 来 源 之 间 整 合 疾病 名 称 的 算法 ,可 提供 netic annotation and 
有 效 的 注释 合并 structured search. 
NLM/ OMIM 是 人 类 孟 德 尔 遗 传 数据 库 ( 线 上 版 ) ”主要 关注 人 类 基因 变 J Amberger 等 . https:// 
JHUSM (online Mendelian Inheritance in Man) 的 简 异 和 表 型 性 状 之 间 的 Searching Online — omim. org/ 
称 。 这 是 一 个 持续 更 新 的 关于 人 类 基因 和 关系 Mendelian Inheritance 
遗传 紊乱 的 数据 库 , 主要 着 眼 于 遗传 性 的 基 in Man (OMIM): A 
因 疾 病 ,包括 文本 信息 和 相关 参考 信息 . 序 Knowledgebase of Hu- 
列 纪录 、 图 谱 和 相关 其 他 数据 库 man Genes and Ge- 


netic Phenotypes. 


注 :NCBI: National Center for Biotechnology Information ,美国 国家 生物 技术 信息 中 心 ;GRIB ; Research. Programme on Biomedical Informatics , 西 
班 牙 生物 医学 信息 学 研究 计划 项 目 组 ;KAW :Knut and Alice Wallenberg Foundation ,瑞典 Knut and Alice Wallenberg 基金 会 ;WIS ; Weizmann Insti- 
tute of Science ,以 色 列 魏 茨 曼 科学 研究 学 院 ;NLM :National Library of Medicine ,美国 国立 医学 图 书馆 ;JHUSM :Johns Hopkins University School of 
Medicine ,美国 美国 约翰 堆 普 金 斯 医学 院 


1.2 研究 方法 


具体 步骤 见 数据 处 理 流程 图 ( 见 图 2) ,包括 :中 通 
过 PubMed 检索 “ Alzheimer Disease" [ Mesh | 下 载 AD X: 
题 相关 文献 ,随后 进行 去 重 整 理 。® 从 NLM 的 FTP 站 


点 (http://www. nlm. nih. gov/mesh/meshhome. html ) 获 
取 MeSH 术语 词 表 ,提取 Diseases Category 所 在 的 C 类 
疾病 词 表 信息 (Tree Numbers: C) 。 包 将 MeSH. 疾病 词 
RAER AD 文献 主题 词 进行 匹配 ,识别 与 AD 共 现 的 


疾病 人 信息。 根据 DisGeNET 提取 的 全 病 种 GDAs R 
语词 表 对 主题 共 现 疾病 进行 基因 - 疾病 关联 ,获取 疾 
病 的 全 部 基因 。@ 根 据 6 个 平台 汇总 后 的 AD 基因 集 
合 对 主题 共 现 疾病 的 全 部 基因 进行 识别 ,获取 与 AD 
基因 重合 ,包含 AD 基因 或 无 AD 基因 的 疾病 列表 。 运 
行 过 程 中 ,使 用 VBA 编程 实现 识别 .匹配 等 数据 处 理 ， 
所 处 理 数 据 存 储 在 Access 数据 库 中 。 
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文献 检索 
“Alzheimer 
Disease” 


[Mesh] 


基于 MeSH 
疾病 词 表 
识别 主题 


AD 主题 共 现 
疾病 列表 


多 库 汇总 AD 基 


基于 基因 - 疾病 
数据 集 识别 

主题 共 现 疾病 

的 基因 


AD 主题 共 现 
疾病 -基因 


— AD 
nmaa | | “aenn 
主题 共 现 疾病 与 fAD E 根据 AD 基因 
D 重 香 基 因 范 围 ses 重合 范围 分 组 | 


2 数据 处 理 流程 


二 
2v IRE HR 
^to 


2NT7 整体 结果 
OER URN 2019 年 7 月 31 日 , 共 检索 到 88 334 篇 
194 年 以 来 AD 主题 相关 文献 ,利用 MeSH C 类 词 表 (下 
2X ED Jy 2019 年 6 月 23 日 ) 中 11 648 类 /4 818 种 疾病 
对 天 直行 疾病 实体 识别 ,匹配 出 166 946 次 /1 639 种 AD 
所 本 共 现 疾病 。 根 据 628 685 条 DisGeNET 全 病 种 GDAs 
(PRHA 2019 年 8 月 2 日 ) 匹 配 出 其 中 1 125 种 , 获 
取 美 联 基因 151 710 条 /13 891 种 。 从 Clin Var MalaC- 
asd 5t 6 个 数据 库 汇总 AD 基因 共计 2 120 种 ,与 主题 共 
Agata peso, 区 分 每 种 疾病 是 否 与 AD 
存 杜 相同 基因 :GD88 种 疾病 的 135 种 关联 基因 完全 与 
AnA 种 疾病 的 13 891 种 关联 基因 部 分 包 
含 AD 基因 ,涉及 AD 基因 1 992 fh. dE AD 基因 11 899 
Fs DAS 种 疾病 的 87 种 关联 基因 未 包含 AD 基因 。 
2.2 ”相关 分 析 
LBD 理论 提示 只 有 新 颖 的 链接 才 有 意义 。 在 修 


前 已 知 概念 配对 后 ,对 剩余 配对 ( 即 潜在 发 现 ) 进行 
排序 ,以 便 研 究 人 员 优 先 探 索 最 具 潜 力 的 研究 方 
向 ”。 因 此 ,本 研究 将 重点 讨论 与 AD 部 分 基因 重 
合 的 主题 共 现 疾病 及 其 所 涉 非 AD 基因 ,通过 对 起 始 
项 X(AD) -链接 项 Y( 部 分 基因 重合 的 疾病 ) - 目标 
项 Z( 疾 病 的 其 他 基因 ) 进行 关 联 规则 "及 算法 排 
HEU ,以 实现 潜在 候选 基因 的 排序 idt vf DU Js eR 
力 人 研究 方向 。 
2.2.1 主题 共 现 疾病 分 析 

以 X2 Y ( confidence , support ) 关联 规则 二 对 AD 
与 主题 共 现 疾病 联系 进行 赋值 计算 ,通过 公式 (1) RU 
公式 (2) 分 别 截 取 XY , YZ 关联 降序 下 前 10 名 进行 分 
析 ( 见 表 2、 表 3): 


公式 (1) 

公式 (2) 
其 中 ,Dx 为 AD 总 文献 数 ; Dy 为 主题 共 现 疾病 文 

HRZ; Dx N Dy 为 AD 文献 中 主题 共 现 疾病 文献 量 。 


confidence = DxN Dy 
Dx 


support = Dx AN Dy 


表 2 AD 部 分 基因 重合 的 主题 共 现 疾病 一 一 XY 关联 降序 下 Top10 结果 


guy TEUM 。 主题 共 现 疾病 所 涉 文献 XY 关联 也 关联 o 
英文 名 称 中 文 名 称 。 数 (篇 ) Rank Suppon  COpfdene Ran 相同 基因 数 不 同 基因 数 总 基因 数 UO 
1 Dementia Dp 9 341 1 9 341 10. 82 5 293 142 435 67.36 
2 Plaque, Amyloid 淀粉 样 斑 块 — 3501 2 3 501 4. 06 2 204 30 234 87.18 
3 Parkinson Disease HERRI 3 405 3 3 405 3.94 9 530 533 1063 49.86 
4 Memory Disorders 记忆 障碍 2 702 4 2 702 3.13 3 32 11 43 74.42 
5 Dementia, Vascular 管 性 痴呆 2 401 S 2 401 2.78 1 7 8 79 89.87 
6 Nerve Degeneration 神经 变性 1 710 6 1 710 1.98 6 90 54 144 62.50 
7 Inflammation 炎症 1 538 7 1 538 1.78 8 229 199 428 53.50 
8 Lewy Body Disease Lewy 体 病 1 292 8 1 292 1.50 4 91 41 132 68.94 
9 Down Syndrome 唐 氏 综合 征 1276 9 1 276 1.48 7 255 219 474 53.80 
10 Cerebrovascular Disorders ” 脑 血 管 障碍 776 10 776 0.90 10 80 97 177 45.20 
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RI AD 部 分 基因 重合 的 主题 共 现 疾病 一 一 YZ 关联 降序 下 Top10 结果 


; XY 关联 YZ 关联 
序号 主题 共 现 疾病 主题 共 现 疾病 所 涉 文献 m x ye " E 
英文 名 称 中 文 名 称 数 (篇 ) Rak Suppo Cee Ra PELO o E ERA 
1 Cerebral Amyloid Angiopathy 脑 淀 粉 样 血管 病 618 3 618 0.72 1 43 1 44 97.73 
2 Amyloid Neuropathies, Familial 家 族 性 淀粉 样 神经 病 11 7 11 0.01 2 11 1 12 91.67 
3 Dementia, Vascular 管 性 痴呆 2 401 2 2 401 2.78 3 71 8 79 89. 87 
4 Retinal Drusen 视网膜 小 更 8 8 8 0.01 4 8 1 9 88. 89 
5 Toxoplasmosis , Cerebral li 5 JE rpg 1 10 1 0. 00 4 8 1 9 88. 89 
6 Hypoxia-Ischemia, Brain [i fe SEC 22 6 22 0.03 6 F 1 8 87.50 
7 Neuroleptic Malignant Syndrome ”安定 药 恶 性 综合 征 7 9 7 0.01 6 7 1 8 87.50 
8 Spinal Cord Injuries T 6840 5 33 2 33 0.04 6 7 1 8 87.50 
9 Plaque, Amyloid 淀粉 样 斑 块 3 501 1 3 501 4.06 9 204 30 234 87.18 
10 Tauopathies Tau 病变 463 4 463 0.54 10 111 18 129 86. 05 


. 淀粉 样 斑 块 (Plaque，Amyloid) 与 血管 性 阁 呆 (De- 
mentia, Vascular) 在 两 种 排序 方式 下 均 占 据 前 列 。 从 
SNE (XY) KVE, REB FEROR (4. 06% ,3 501) 一 
直 区 来 都 是 AD 领域 的 主要 分 支 ;从 相同 基因 (YZ) 
IP, ERI AD 相同 基因 占 比 (87. 18% ,204) 也 位 居 前 
列 。 作为 AD 标志 性 神经 病理 学 改变 ,B - 淀粉 样 蛋白 
amyloid beta, AQ) 及 淀粉 样 沉 积 物 在 AD 发 病 机制 中 
控油 着 至 关 重 要 的 角色 。 多 年 来 ,AB 假说 认为 , 当 细 


y 


Wr os AC nk p 淀粉 样 蛋白 沉积 物 时 ,会 触发 神经 退 
<] 


FEBI, Ji coz J1 SUAE MIER , ARTISI 
RAD, bii RU] AB 形成 过 程 中 有 毒物 质 是 如 何 
产生 以 及 该 物质 如 何 引起 细胞 功能 障碍 死亡 等 ,仍然 
不 挑 战 。 随 着 冷冻 电子 断层 成 像 术 (cryoelectron 
toriggraphy ,cryo-ET) 等 技术 的 提升 ,研究 者 将 对 AB di 
EATI DESERRIA AD 联系 进行 更 深入 的 研 
究 , 为 寻求 诊断 .研发 延缓 甚至 阻碍 疾病 进程 的 药物 提 
BUE T 77. YERA Vascular Dementia, VaD) 
(2.78% ,2 401) 是 仅 次 于 AD 的 痴呆 分 型 , 占 总 体 的 
5% 至 10% 7 ,由 脑 血管 及 相关 病变 所 致 脑 组 织 血 流 
灌注 障碍 ,引起 局 部 脑 组 织 细胞 损害 ,最 终 表现 为 认 知 
功能 障碍 甚至 痴呆 "1 。 许 多 老年 期 痴呆 患者 常 伴 
VaD 与 AD 两 种 病理 表现 ,而 两 者 共有 的 危险 因素 、AB 
沉积 现象 以 及 一 氧化 氨 依 赖 下 线粒体 异常 活动 .细胞 
分 裂 等 病理 因素 ,揭示 了 两 者 在 发 病 机 制 上 的 共 
性 四 -中 ,提示 脑 血管 病变 与 神经 退行 性 病理 过 程 可 能 
相互 作用 “ 。 此 外 ,记忆 障碍 、 脑 淀粉 样 血管 病 Tau 
病变 等 均 列 前 位 ,提示 其 从 研究 热度 .基因 组 学 相关 性 
上 均 有 较 高 的 研究 价值 
2.2.2 ”潜在 候选 基因 分 析 

考虑 到 Xz 可 能 会 存在 一 个 以 上 的 中 间 Y, 且 X 


可 通过 不 同 Y 到 达 Z, 因 此 对 7Z 进行 排序 时 借鉴 了 启 
发 式 排名 函数 ”的 方程 , 见 公式 (3) ,以 筛选 强 关联 信 
息 。 利 用 截至 2019 年 完整 数据 提取 AD 候选 基因 , 结 
合 PubMed .Entrez 数据 库 掌握 AD 与 潜力 基因 的 相关 
研究 ( 见 表 4) 。 
Rank(Z,) = $ (Sey; x Sy; Z,) ARG) 
其 中 ,Z 为 秩 和 后 候选 基因 Z 排序 ;$,, 与 5, 为 X 
一 5 Y,—Z, 的 support 值 ;m 为 中 间 概 念 Yi 数量 。 
截至 2019 年 数据 共 提 取 11 899 种 候选 基因 ,根据 
算法 筛选 出 25 种 潜力 候选 基因 并 进行 部 分 文献 验证 ， 
结果 表明 :GDSPP1 作为 三 种 排序 及 两 种 关联 值 角度 下 
均 位 列 第 一 的 基因 ,其 关联 表现 异常 突出 。SPP1 基因 
是 分 泌 磷 酸 蛋 白 1/ 骨 桥 蛋 白 (Secreted Phosphoprotein 
1, SPP1) 的 编码 基因 ,在 脑 及 其 他 多 种 组 织 中 表达 , 参 
与 炎症 和 抗 凋 亡 过 程 , 起 细胞 粘 附 分 子 和 细胞 因子 的 
作用 “ 。2015 4E, M. Shi 等 发 现 SPP1 蛋白 为 首 的 脑 
Tiu 5 肽 组 合 标记 物 在 区 分 由 金森 病 (Parkinson ' s 
Disease, PD) 与 AD 方面 具有 显著 特异 性 与 敏感 性 。 
随后 , 脑 状 液 `. 尿 SPP1 蛋白 作为 候选 诊断 标志 物 被 用 
于 MCI 及 AD 前 期 的 进展 监测 *-* A. Rentsendorj 
阐明 SPP1 蛋白 可 调节 巨 哈 细胞 介 导 下 促进 AB 清除 
的 过 程 ,提出 在 AD 模型 中 脑 骨 桥 蛋 白 增 加 与 AB 减少 
HÆ! n W. Kamphuis 与 Z. Yin 对 APP/PSI 小 鼠 
CDI1e + 小 胶 质 细胞 、MHC I + 斑 块 相关 小 腕 质 细胞 
的 转录 谱 研究 显示 ,SPP]1 作为 上 调 基 因 参 与 了 细胞 分 
化 、 系 统 发 育 等 过 程 ””。2019 年 ,C. Frigerio 在 基因 
调节 小 胶 质 细胞 对 AB 斑 块 的 最 新 研究 中 发 现 ， 
App “小 鼠 AB 斑 块 的 存在 促进 了 稳 态 小 胶 质 细胞 向 
活化 小 胶 质 细胞 的 重新 分 布 ,SPP1 作为 参与 组 织 修复 
的 基因 会 进一步 区 分 活化 小 胶 质 细胞 亚 群 ,有 利于 揭 
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表 4 2019 年 潜在 AD 候选 基因 信息 -3 种 排序 


"E NE YZ XX XYZ 关联 "E E YZ XE XYZ KIR 
名 称 数量 (篇 ) Rank 关联 值 (次 ) Rank — ERI 名 称 数量 (篇 ) Rank 关联 值 (次 ) Rank A 
1 SPPI 8 1 151 1 22 996 14 FUS 2 338 35 3 20 044 
2 TACI 2 23 80 2 20 825 15 CI901f12 1 1 437 16 6 16 876 
3 GPXI 10 98 55 4 19 429 16 DCTNI 0 947 21 7 16 704 
4 THBSI 8 12 87 5 18 849 17 JPH3 0 751 24 8 16 674 
5 MECP2 13 34 74 10 16 511 18 DNAHS 0 164 46 9 16 520 
6 CXCLIO 15 5 110 11 16 399 19 KRAS 4 2 118 572 3 690 
7 MIR21 1 7 102 16 15 522 20 FOXP3 18 3 112 210 5 896 
8 SELE 4 27 78 18 15 207 21 BRAF 4 4 111 839 3 169 
9 CCR2 42 25 79 30 13 811 22 CTLA4 2 6 106 810 3 373 
10 NF1 2 93 56 37 12 838 23 IL2RA 1 8 101 283 5 015 
yi PTHLH 0 66 62 39 12 768 24 HLA-C 7 9 96 182 6312 
12 NCAMI 5 21 81 88 10 484 25 F3 1 10 93 376 4 435 
Ys TXN 3 47 68 98 10 333 
2 JR-WEC E RC Ne SNNT EF MEER 
v: No 1 -13 代表 XYZ 秩 和 与 YZ 关联 值 降序 均 在 前 100 名 的 基因 信息 ;Nol4 - 18 代表 除 上 述 部 分 基因 外 XYZ 秩 和 前 10 的 基因 信息 ; 


NE 他 25 代表 除 上 述 部 分 基因 外 YZ 关联 值 前 10 的 基因 
Es pp | m 
IAD 小 胶 质 细胞 的 病理 特征 。 自 2007 以 


信息 


来 ,SPP1 


作对 基因 调控 产物 - 蛋白 分 子 生物 标记 物 方 国 


i 的 研究 


报章 陆续 产 出 ,但 直接 探讨 基因 转录 、 表 达 及 


参与 AD 


机 制 的 研究 仍然 薄弱 ,结合 既往 研究 成 果 与 本 研 
完 糯 据 判断 ,SPP1 与 AD 相关 研究 值得 继续 深入 。 
CE PTALA 作为 不 同 关联 值 下 均 位 居 前 列 的 候选 


基因 , 却 与 AD 研究 暂 无 交集 ,而 相似 情况 也 发 生 在 其 
他 候选 基因 上 ( 见 表 5) ,提示 虽 无 文献 支撑 ,但 该 类 基 
因 与 其 他 神经 退行 性 病变 或 神经 系统 疾病 ( Nervous 
System Disease , NSD ) 仍 有 报道 ,可 通过 与 AD 强 关 联 
NSD 进一步 挖掘 候选 基因 的 潜力 研究 方向 。 


表 5 2019 年 AD 特殊 候选 基因 及 PubMed 所 涉 基因 与 AD/NSD 研究 文献 量 -XYZ 关联 降序 
m. YZ 关联 XYZ 关联 Rum 1s4g 与 与 NS 
2e 12737313 ERS Meu R DAS EEA 
基因 名称 Rank 关联 值 " 后 加 入 候 — 究 数量 ”研究 数量 相关 检索 式 
E us " n : d 
© el NR MEE D 
a - DCTN1 947 21 7 16 704 fj 0 75 (DCTNI) AND “Nervous System Diseases" [ Mesh | 
Em JPH3 751 24 8 16 674 否 0 26 (JPH3) AND “Nervous System Diseases” [ Mesh | 
Q DNAH8 164 46 9 16 520 否 0 1 PubMed Links for Gene (Select 1769) AND “Nervous System Disea- 
ses" [ Mesh | 

4 PTHLH 66 62 39 12 768 否 0 20 (PTHLH) AND "Nervous System Diseases" [ Mesh ] 

3 TRNS2 702 25 74 10 889 是 0 2 (MT-TS2 OR TRNS2 OR MTTS2 OR TRNS-2) AND "Nervous System 
Diseases" [ Mesh ] 

6 TRNW 948 21 81 10 711 是 0 14 (TRNW OR MTTW OR MT-TW) AND "Nervous System Diseases " 
[ Mesh] 

7 ATP6VIA 3283 8 130 9 819 是 0 5 (ATP6VIA OR HO68 OR VA68 OR VPP2 OR Vmal OR ARCI2D 
OR ATP6A1 OR IECEE3 OR ATP6V1AI) AND "Nervous System Dis- 
eases” [ Mesh | 

8 RNF216 2 659 10 135 9 559 是 0 12 (RNF216 OR RNF216 OR CAHH OR U7IH OR TRIAD3 OR 


UE :特殊 候选 基因 , 指 PubMed 上 该 基因 与 AD 无 直接 相关 文献 ;NSD , Nervous System Diseases ,神经 系统 疾病 ;2019 年 候选 
4 种 特殊 候选 基因 ,并 罗列 2015 年 后 新 划 入 候选 范围 的 4 种 特殊 候选 


3 评估 


UBCETIPI ) AND “Nervous System Diseases” [ Mesh ] 


列表 中 抽取 


Bir 
[zt] 


LBD 的 评估 具有 挑战 性 ,所 捕获 的 新 发 现 尚未 


I EG AUT 
在 任何 领域 发 布 ,难以 验证 其 有 效 性 ”。 然 而 ,了 解 
发 现 结果 的 可 徘 性 至 关 重 要 ,主要 可 通过 黄金 标准 集 
和 评估 指标 来 进行 衡量 。 研 究 者 常 使 用 基线 对 比 、 
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典 发 现 复 制 .时间 切片 .专家 /用 户 评估 或 实验 /试验 
验证 等 技术 评估 其 结果 ， 并 结合 信息 检索 等 定量 指标 
检验 其 性 能 ” 

3.1 ”时间 切片 
3.1.1 评估 方案 

时 间 切 片 是 LBD 的 主要 评估 方法 ,根据 截止 日 
期 将 数据 集 分 为 发 现 前 发现 后 两 段 ,通过 训练 前 段 数 
据 以 生成 发 现 ,再 将 后 段 数 据 用 作 测 试 集 以 开发 黄金 
标准 集 来 评 佑 发现” ” 。 其 中 ,黄金 标准 的 制定 互 
不 相同 ,主要 取决 于 关联 术语 的 评估 方式 ” ,形式 也 
不 拘泥 于 后 段 数 据 提 取 , 如 专家 意见 .专利 试验 等 均 可 
创建 为 黄金 标准 集 ” 。 本 研究 选取 生物 信息 数据 库 
中 新 确认 的 AD 基因 - 疾病 关联 为 黄金 标准 集 , 相 较 
语 关 提取 及 关系 判定 更 加 精准 。 

-全 医学 人 页 域 的 发 现 需要 时 间 ,合理 的 截止 日 期 对 假 
Wiesen. 但 日 期 的 划分 暂 无 标准 量具 
有 高 度 主观 性 。 根 据 AD 文献 发 展 趋势 ,本 研究 以 
增长 趋 于 平稳 的 2014 至 2015 年 作为 时 间 分 割 范 围 ， 
pg 2014 年 12 月 31 日 为 时 间 截 点 提取 截 点 前 期 AD 
POREH, ti 结合 截 点 后 期 新 确认 AD 基因 集合 进行 验 
[XS 采用 精确 度 (Precision,P 值 ) 44 IP RE ( Re- 
cálLjR 值 ) F BET ( F-Measure, F 值 ) 等 信息 检索 指标 ， 
和 全 数据 及 前 20 准确 值 区 间 做 定 量 评估 。 
32 整体 评估 结果 
AE 2014 年 12 月 31 日 ,相关 文献 数据 共 提 取 候 
HAEA] 10 564 种 。 经 与 2015 年 后 AD 基因 集合 对 比 ， 
gn 380 种 预测 成 功 ,整体 R 值 =0.8257,P 值 = 
0. ro 9( 见 表 6)。 借助 11 点 插值 P-R 值 曲线 "观察 
各 梯度 R 值 与 P 值 变化 趋势 ,调整 后 插值 平均 精度 
( Average interpolated precision, AiP) 上 升 至 0. 1260 , 提 
示 排 序 对 整体 性 能 确 有 影响 。 图 3 显示 ,R 值 在 
0.002 6 到 0.100 3 区 间 P 了 值 下 降幅 度 明显 ,提示 列表 
中 R 值 在 10% 以 内 的 预测 结果 (预测 247 ,成 功 38 ) 精 
准 性 较 强 。 以 加 权 下 值 曲线 ”综合 权衡 P-R 值 , 图 
3 rp FL/F2 曲线 显示 , 当 均 衡 或 优先 考虑 预测 较 全 ,P 
值 在 R=0.401 1 时 表现 最 佳 (预测 1 404 ,成功 152) ; 
若 优先 考虑 预测 较 准 ,F0.5 曲线 显示 了 值 在 R = 
0.200 5 时 表现 最 佳 ( 预测 533 ,成 功 76) ,提示 当 更 关 
注 预 测 结果 精确 率 时 ,所 浏览 预测 基因 数 无 需 过 多 。 
3.1.3 区 间 评 估 结 果 

考虑 到 多 数 科 研 人 员 不 会 浏览 所 有 发 现 ,因此 评 
佑 前 k 个 位 置 中 关联 比例 很 重要 。 全 数据 P-R th 
线 ( 见 图 3) 揭 示 发 现 结果 排序 靠 前 被 成 功 预测 的 几率 


表 6 2015 年 前 潜在 AD 候选 基因 的 预测 评估 


前 20 种 正确 值 集合 
全 部 预测 集合 
经 时 间 切 片 验 证 ”经 文献 证 据 校正 
预测 基因 数 10 564 119 48 
预测 正确 基因 数 379 20 20 
精确 度 (P) 0.035 876 562 0.168 067 227 0.416 666 667 
召回 度 (R) 0. 825 708 061 - - 
插值 平均 精度 (AiP) 0.125 980 887 = — 
平均 精度 (AP) 一 0.253 750 617 0.693 277 398 


> 
w 


Interpolated precision 
o 
已 


图 3 2015 年 前 AD 候选 基因 全 数据 的 
11 点 插值 精确 度 - 召回 度 曲线 


更 大 。 截 取 和 集合 中 成 功 预 测 的 前 20 个 候选 基因 作为 
检测 区 间 再 次 评估 ,检索 PubMed 以 补充 预测 失败 基 
因 与 AD 强 关联 的 支撑 文献 ,以 对 时 间 切 片 的 部 分 排 
序 进行 校正 ( 见 表 7)。 

经 时 间 切 片 验证 ,浏览 截至 119 种 预测 基因 时 可 
获取 20 个 成 功 值 ,平均 精确 度 (Average Precision , AP) 
为 0.253 8, 较 全 数据 集 有 所 提升 。 图 4 显示 ,R 值 = 
0.3( 预 测 21, 成功 6), 达 到 平衡 点 '% (Break-Even 
Point, BEP) ,提示 在 浏览 前 21 个 候选 基因 时 所 收获 成 
功 基 因 的 概率 最 高 。F 值 曲线 显示 , 奉 更 加 关注 预测 
精准 率 , 浏 览 至 第 13 种 预测 基因 时 即 可 获取 最 佳 精确 
度 ( 预 测 13 ,成 功 5) ;两 者 均 权 衡 时 , 则 需要 浏览 更 多 
(预测 55 ,成 功 12 ) 。 

文献 检索 发 现 ,2015 年 以 前 部 分 预测 失败 的 AD 
关联 基因 研究 已 经 发 表 , (如 ATPSPD, PMID: 
23857120) , 因 其 关联 信息 未 在 2015 DisGeNET 
等 数据 库 收 录 , 故 在 时 间 切 片 测 试 中 未 能 识别 出 该 类 
R52 uM TA. 
PubMed 文献 中 仍 有 散落 的 关联 基因 信息 。 介 于 此 ,在 
忽略 文献 结论 权威 性 的 情况 下 ,本 研究 严格 划 定 文献 
纳入 标准 ,筛选 AD 患者 /动物 模型 /体外 相关 基因 调 
控 表 达 且 揭示 其 正 / 逆 向 关联 的 研究 作为 证 据 资 源 ,以 
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表 7 2015 年 前 AD 候选 基因 预测 正确 Top20 结果 -XYZ 关联 降序 


YZ XYZ 经 时 间 切 片 验证 经 文献 证 据 校 正 
序号 候选 基因 名 称 预测 Rank — 、 AN 
关联 值 ( 次 ) 关联 秩 和 值 确认 Rank 确认 年 份 确认 Rank 部 分 关键 文献 
1 SPP1 1 133 17 274 1 PMID :31018141 
2 EGF 2 101 16 678 1 2016 2 
3 TAC1 3 71 15 647 3 PMID :26402107 
4 FMRI 4 37 14 305 2 2015 4 
5 ATXN2 7 33 13 341 3 2016 5 
6 GPXI 9 45 12 805 6 PMID :29246792 
7 CHMP2B 10 16 12 305 4 2015 7 
8 CXCL10 12 97 11 980 8 PMID :30529693 
9 GDF15 13 46 11 968 5 2016 9 
10 PRDX5 15 18 11 689 10 PMID :28358580 
11 PARK7 16 15 11 680 11 PMID :30889441 
12 NAGLU 18 13 11 422 12 PMID 20040070 
13 VPS13A 20 7 10 918 13 PMID: 26825611 
14 MEF2C 21 17 10 874 6 2016 14 
y= 
>i MIR21 22 73 10 765 15 PMID :29635890 
6 CALCA 27 65 10 125 7 2018 16 
oor DPP4 32 57 9 631 8 2016 17 
v8 PLP1 39 22 9 073 18 PMID :29110684 
CQ» TYROBP 47 14 8 582 9 2016 19 
CO» RBM8A 48 7 8 570 20 PMID :31816601 
—9—Precision-pre —9— Fi-pre —9—F05-pre —*— F2-pre i5) —e— Precision-post —9— Fl-post 一 e 一 F0.5-post —9-— F2—post 
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图 4 2015 年 前 AD 候选 基因 预测 正确 Top20 
的 精确 度 — 召回 度 曲线 ( 时 间 切 片 ) 


校正 排序 结果 ( 见 图 5) 。 经 校正 ,在 浏览 至 第 48 种 基因 
时 即 可 获取 前 20 个 成 功 值 ( 见 表 7) ,AP 值 =0.693 3, 
较 校正 前 有 大 幅 提 升 ,揭示 了 文献 查阅 对 于 预测 结 
解读 的 必要 性 。 经 调整 , 当 R 值 =0.65 时 (预测 20 ,成 
功 13) 达到 平衡 点 ,与 校正 前 平衡 点 所 需 预 测 数目 相 
近 。F 值 曲线 说 明 ,在 不 优先 考虑 召回 率 的 情况 下 , 浏 
览 22 个 预测 基因 即 可 获得 较 高 准确 率 。 
3.2 ”其 他 评估 方式 

其 他 LBD 模型 往往 难以 回溯 历史 数据 。 本 研究 
采用 即时 输出 结合 文献 预 估 的 方式 ,与 同样 基于 XYZ 
理论 及 关联 规则 的 BITOLA ”进行 横向 对 比 。 双 方 以 


Precision 


0 
人 
Recall 
5 2015 年 前 AD 候选 基因 预测 正确 Top20 
的 精确 度 -~ 召回 度 曲线 (文献 校正 ) 


AD 为 X 起 始 概念 ,截取 XY 关联 值 降序 下 前 50 种 疾 
病 为 Y 中 间 概 念 ,罗列 Z 候选 基因 列表 。BITOLA 和 本 
研究 方案 分 别 筛选 出 4 211 种 .5 252 种 候选 基因 。 表 
8 显示 当 截 至 前 20 个 预测 结果 时 ,两 者 的 排序 大 相 径 
庭 , 而 在 对 方 列 表 中 多 位 居 其 后 。BITOLA 预测 结果 中 
有 密切 支撑 文献 (提示 基因 调控 表达 或 生物 标记 物 ) 
的 候选 基因 数 低 于 本 研究 方法 ,而 其 预测 的 TIMP1、 
EPO 等 基因 在 DisGeNET 中 已 被 标 为 AD 关联 基因 。 
目前 的 已 有 数据 难以 完整 展现 两 者 性 能 差异 , 需 继续 
扩展 区 间 测 定 范围 ,尝试 运行 多 种 主题 或 利用 其 他 黄 
金 标 准 集 来 完善 评估 。 
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t= 


R8 2019 年 AD 候选 基因 预测 Top20 结果 对 比 -XYZ 关联 降序 


本 研究 方案 BITOLA 结果 
预测 XY 。 XYZ 对方 588 文献 预测 XY xyz xy 58 X 
排序 基因 各 称 关联 值 wok 。 排序 COO RM 排序 基因 名称 关联 值 aem pe mee quw TEE 
(篇 ) pa ” (篇 ) 
1 SPP1 18 20687 1823 是 9 1 ILS 14 12740670 1 758 是 1 / 
2 FUS 13 19 535 / 是 7 2 MYCN 5 10790840 1655 18 0 / 
3 TACI 14 19 525 2 536 2 3 PARP9 10 10710710 7 1i 0 19 全 数据 集 有 预测 - 5656 
4 GPXI 11 18 244 243 是 11 4 ARIAC 9 5769360 / 7 0 19 全 数据 集 有 预测 - 6651 
5 THBSI 11 17 279 / 是 8 5 MOG 14 5155030 4278 是 5 / 
6  Cl9ofl2 5 16 384 / 是 1 6 TIMPI 20 4941350  / 是 8 DisGeNET -2003 
7 DCTN1 7 16 290 1890 T 0 7 EPX 18 4914640  / 18 0 / 
8 JPH3 9 16 080 328 E 0 8 EPO 18 4594120  / 是 30 DisGeNET -2012 
"9 ^ PRDX5 6 16010 — 1166 是 1 9 ERBB2 7 4353730 / 是 5 DisGeNET -2018 
c DNAHS 9 15 375 / T 0 10 RAPGEFS 15 3926370 306 18 0 74 
qo ND5 8 14 989 / 是 1 11 TBC1D9 15 3926370 192 18 0 / 
y= 
425 MECP2 11 14 957 460 是 13 102 ANG 15 3899660  / 是 3 DisGeNET -2016 
(=) FTL 5 14889 1407 是 3 13 CD86 15 3739400  / 是 7 DisGeNET -2016 
à CYTB 7 14 844 / 是 1 14 AGTR2 17 35255700 / 是 7 DisGeNET - 2009 
E cxcLio 12 14841 / 是 15 15 SUBI 15 3472300 5033 18 0 / 
A ATP13A2 4 14 745 / 18 0 16 — ADIPOQ 11 3472300 506 是 14 / 
N VPS13C 5 14 741 元 是 1 17 KDR 16 3418880 524 是 1 / 
"m 
地 PARK7 7 14 630 / 是 14 18 MDM2 10 3418880  / 是 5 DisGeNET -2014 
DE LY6E 5 14 620 / E 0 19 AFP 14 3392170 910 T 0 
(S NAGLU 5 14 309 154 是 2 20 CD80 13 3312040  / 是 3 DisGeNET -2016 


-一 数据 或 文本 挖掘 的 研究 成 果 也 部 分 佐证 了 本 研究 


的 预测 。 寸 分析 AD 脑 组 织 基因 表达 数据 结 
合 iTRAQ 实验 ,发 现 AD 患者 尿 液 SPP1 蛋白 差异 表 
达 ,将 其 报道 为 早期 AD 的 尿 蛋 白 生 物 标记 物 o Y 
Cruz-Rivera 等 利用 微 阵 列 数 据 集结 合 旅行 商 问题 
( Traveling Salesman Problem , TSP) 路 径 对 AD 患者 与 对 
照 组 神经 元 的 差异 表达 进行 分 析 , 发 现 FTL 处 在 最 相 
关 循 环 中 ,可 作为 潜在 AD 生物 标记 物 ” 。 不 同 研究 
所 得 的 相近 结论 -将 为 结果 预测 的 有 效 性 提供 
一 定 依据 。 


4 讨论 
本 研究 以 LBD 理论 入 手 , 对 PubMed 中 AD 文献 进 
-疾病 关联 挖掘 。 运 用 LBD 框架 进行 诠释 : 
本 研究 主要 以 AD .主题 共 现 疾病 及 关联 基因 为 对 象 
( Objects) ,利用 MeSH 3 主题 共 现 、 疾病 实体 识别 及 基因 


F. Yao 通过 


匹配 等 方式 构建 链接 (Links) ,通过 多 种 组 学 数据 库 中 
GDAs( Additional sources) 挖掘 AD 与 主题 共 现 疾病 的 
差异 基因 集合 以 推理 疾病 下 基因 之 间 的 隐藏 关联 (Im- 
ference) ,并 结合 关联 规则 与 排序 算法 (Intermediary ) ffi 
选 强 关联 主题 共 现 疾病 及 AD 优先 候选 基因 ,进而 为 
AD 新 研究 的 假设 提供 线索 。 

早期 的 知识 发 现 研究 主要 集中 在 数据 库 领 域 , 随 
着 新 兴 技 术 与 应 用 模式 的 涌现 ,其 研究 重点 开始 转向 
对 非 结 构 化 数据 (文本 数据 ) 的 知识 提取 LBD 作 
为 知识 发 现 重 要 分 支 之 一 ,在 生物 信息 挖掘 领域 的 研 
究 愈 发 广泛 ,其 技术 也 在 不 断 精进 ,相关 进展 包括 : 
QD 数据 类 型 :将 LBD 应 用 于 专利 、 病 例 报告 等 论文 之 
外 的 类 型 ;@) 分 析 单 元 :使 用 UMLS , MeSH , Entrez Gene 
等 受 探 词汇 提取 概念 以 促成 跨 学 科 的 知识 发 现 ;@) 处 
理 流 程 : ee E XRB 
或 链接 预测 等 自动 处 理 技术 ; 包 过 滤 机 制 :进行 词 级 过 
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滤 前 对 文章 .段落 及 语句 消除 噪声 关联 以 缩小 发 现 范 
围 ;@ 排 序 技术 : 除 常规 统计 排序 外 ,使 用 机 器 学 习 模 
型 对 潜在 关联 排序 ;@ 结 果 输 出 :在 展示 关联 排序 列表 
基础 上 采用 基于 语义 类 型 .图 形 可 视 化 和 矩阵 可 视 化 或 
发 现 途 径 等 技术 ;@) 发 现 评估 :采用 定量 与 定性 结合 的 
多 重 评估 方式 。LBD 研究 已 在 新 药 研发 .药物 再 利用 
和 药物 不 良 事件 预测 中 得 以 实践 " ,但 始终 缺乏 模仿 
概念 之 间 联 系 真 正 形成 的 能 力 , 需 通过 整合 逻辑 和 优 
化 推理 机 制 进一步 完善 LBD 认 知 过 程 ,以 便 更 好 地 理 
解 复杂 关联 '" 。 此 外 ,LBD 发 现 是 基于 既 有 文本 形成 
的 探索 性 假设 , 始终 需要 最 终 用 户 决定 接受 与 否 P ， 
建立 专家 评估 或 开展 用 户 交互 研究 将 为 验证 其 有 效 性 
提供 可 靠 依据 中。 
本 本 研究 在 既往 LBD 研究 基础 上 ,尝试 整合 不 同 来 
源 组 学 数据 以 更 好 地 满足 关联 发 现 需要 ,并 将 3 其 作为 
系 编 评估 标 准 以 确保 黄金 标准 集 的 准确 性 。 结 合 
GDXs 数据 对 AD 主题 共 现 疾病 及 所 涉 候选 基因 进行 
天 分 析 , 设置 乡 重 排序 提 庶 强 关联 疾病 和 优先 候选 
基 加 ,更 利于 精准 把 握 潜力 基因 的 预测 范围 ,从 而 有 效 
指 可 科研 方向 ,节省 时 间 与 成 本 。 时 间 切片 ,文献 校正 
JEEbp 系统 横向 对 比 的 多 重 评估 结果 表明 ,用户 在 浏 
览 疏 研 究 预 测 的 前 20 - 22 个 AD 候选 基因 即 可 达到 较 
做 测 确 率 , 在 一 定 程度 上 体现 了 性 能 和 效能 。 
全 受到 数据 库 及 词 表 范 围 限制 ,本 研究 仅 对 Medline 
ER ct Bobo ROI T SH 别 , 若 能 将 文 
南岗 围 扩展 至 PubMed 全 库 或 其 其 他 数据 库 , 同 时 应 用 
Etfütree .UMLS 等 更 多 类 型 医学 术语 建立 映射 加 强 识 
别 6 了 I 增强 候选 基因 的 基因 - 共 现 疾病 关联 性 。 本 研 
究 的 识别 规则 主要 基于 主题 词 共 现 ,分 析 结 果 很 难 提 
供 有 力 的 证 据 来 解释 发 病 机 制 的 因果 关系 ,但 并 不 
影响 对 于 疾病 与 基因 关联 的 提取 !sl 。 本 研究 以 基因 


lun 


为 着 手 点 ,未 能 对 其 他 生物 医学 概念 (和 蛋白、 细胞 .代谢 
产物 等 ) 进行 探讨 ,未 来 将 考虑 使 用 更 多 关系 类 型 实体 


强化 发 现 联系 ,构建 异 构 网 络 ,结合 本 体 或 可 视 化 图 谱 
等 技术 进一步 延伸 AD 知识 发 现 研 究 。 此 外 ,考虑 到 
结果 外 部 验证 .实际 数据 适用 性 等 LBD 共同 问题 ,未 
来 可 与 临床 .基础 科研 团队 合作 继续 深化 相关 研究 。 


5 结语 


生物 信息 学 的 快速 发 展 为 神经 科学 做 出 了 重要 贡 
献 , 将 基因 型 与 表 型 联系 起 来 用 于 新 关联 的 发 现 仍 是 
AD T e 么 退行 性 疾病 病因 学 研究 的 主要 挑战 之 

。 本 研究 期 望 通过 对 AD 进行 知识 挖 据 以 快速 


捕捉 更 具 潜 力 的 研究 方向 ,进一步 缩小 基因 测序 范围 、 

辅助 科研 人 员 聚 焦 更 有 价值 的 研究 目标 ,从 而 为 新 研 

究 假 设 的 诞生 提供 重要 指导 建议 ,为 后 续 明 晰 AD 发 

病 机 制 .扩展 诊治 思路 提供 重要 参考 依据 。 
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Knowledge Mining of Alzheimer' s Disease Gene-Disease Associations 
Wang Xue'" Wu Junwei! Chen Guanqun' Li Yanqiong Ma Lu' 
' Medical Humanities School , Capital Medical University, Beijing 100069 
? Department of Library , Xuanwu Hospital , Capital Medical University , Beijing 100053 
* Medical Information Section , Chinese PLA General Hospital , Beijing 100853 
^ Department of Neurology , Xuanwu Hospital , Capital Medical University , Beijing 100053 
Abstract: | Purpose/significance | To explore the gene-disease association of Alzheimer' s disease ( AD) in or- 
der to capture the potential research directions. | Method/process | An open knowledge discovery framework was 
constructed based on LBD theory. Combined with MeSH thesaurus, DisGeNET and other medical terms and group 
data, knowledge mining was carried out in AD literatures in PubMed. Association rules and algorithm sorting were 
used to screen strongly associated MeSH terms co-occurrence diseases and priority candidate genes for partial gene co- 
incidence, results of time slicing and comparison with other LBD tools were used to verify them. | Result/conclu- 
ion | 88 334 AD literatures were identified and matched with 2 120 AD genes, 11 899 candidate genes and 992 co- 
«morbidity genes were identified according to XYZ analysis, 10 strongly associated co-occurrence diseases and 25 pre- 
Ged candidate genes were refined and discussed in combination with literature reports. Mining the potential associa- 
tiens between target disease, co-occurrence diseases and genes by LBD can quickly capture the potential research di- 
Gettions, narrow the scopes of gene sequencing, and provide important guidance for the generations of new research 
"hypotheses. 
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